专业 激情 持久 卓越
好文推荐
当前位置: 首页 > 开放资源 > 好文推荐

【arXiv】SimMIM A Simple Framework for Masked Image Modeling

发布日期:2022-03-30     返回

SimMIM: A Simple Framework for Masked Image Modeling

分享人:郭静文
研究方向:骨架行为识别
论文题目:SimMIM: A Simple Framework for Masked Image Modeling
论文作者:Zhenda Xie, Zheng Zhang, Yue Cao, Yutong Lin, Jianmin Bao, Zhuliang Yao, Qi Dai, Han Hu
作者单位:微软亚洲研究院
论文摘要:本文提出一个用于掩码图像建模的简单框架SmiMIM。我们简化了最近提出的方法,而无需特殊设计,例如通过离散VAE或聚类进行块级别的掩码和分词。为了让掩码图像建模任务能学到更好的表示,我们系统地研究了框架中的主要组件,发现每个组件的简单设计都显示出非常强的表征学习性能:1)使用中等大小的掩码块(例如32)对输入图像进行随机掩码,能使之成为强大的代理任务;2)通过直接回归预测原始像素RGB值的性能并不比复杂设计的patch分类方法差;3)预测头可以像线性层一样轻,性能并不一定比多层的差。通过使用ViT-B,我们的方法在ImageNet-1K上通过预训练也在该数据集上实现了83.8%的top-1微调精度,比之前的最佳方法高出+0.6%。将其应用于约6.5亿个参数的更大模时,SwinV2-H仅使用ImageNet-1K数据就可以达到87.1%的top-1精度。我们还利用这种方法来促进3B模型(SwinV2-G)的训练,通过比以前少40倍的数据,我们在四个具有代表性的视觉基线数据集上实现了最先进的水平。
原文链接

点击此处